为了速成生物学,一位程序员探索了"爆款"基因背后的秘密
原文以 The most popular genes in the human genome 为标题
发布在2017年11月22日的《自然》新闻上
原文作者:Elie Dolgin
如果这些基因中没有您感兴趣的,作者的Github提供了所有基因的出现频率,也提供了脚本计算更多物种基因的出现频率。https://github.com/pkerpedjiev。
最热门的“明星”基因,谱写了科学史与人类进步的传奇。
Credit: K. Krause and J. Krzysztofiak/Nature
Peter Kerpedjiev 需要一门基因学速成课。作为一名接受过生物信息学培训的软件工程师,他正在攻读博士学位,觉得如果能掌握一些生物学的基础知识会对自己的学业有很大帮助。他自问道:“如果想跟人好好聊天儿,我需要了解哪些基因?”。
于是,Kerpedjiev 直奔数据库。多年来,美国国家医学图书馆在自己著名的 PubMed 数据库中系统标记了几乎每一篇涉及基因的文章。而 Kerpedjiev 则摘录下了所有关于基因结构、功能、位置,或者由基因编码的蛋白质的文章。
通过对这些数据进行分类,Kerpedjiev 制作了一份有史以来被研究得最多的基因排行榜——“最热门”的人类基因,以及一些其它物种的基因。
他发现榜单上排名第一的是 TP53 基因。三年前,Kerpedjiev 刚开始他这项分析工作时,详细研究 TP53 和其编码的蛋白 p53 的文章已有 6600 篇。今天,这个数字达到约 8500 篇,并且还在不断增加,平均每天约有两篇介绍 TP53 新生物学特性的文章发表。
对大多数生物学家而言,TP53 的热门程度并不令人意外。它是抑癌基因,作为“基因组守护者”广为人知,并在几乎半数的人类癌症中出现了突变。“这解释了它的持久影响力,” Bert Vogelstein 说。他是一位来自位于美国约翰霍普金斯大学医学院的癌症遗传学家。他说,在癌症领域“没有比它更重要的基因了”。
但有些名列前茅的基因却没有那么出名——包括一些在早期基因研究领域中占主要地位的基因,它们随技术的进步而遭淘汰。“这个排行令人惊讶,”Kerpedjiev 说道,他现在在位于马萨诸塞州波士顿的哈佛医学院做博士后,致力于基因组数据可视化。“一些基因上榜是可预见到的,而另一些则出乎意料。”
为了深入研究,Kerpedjiev 与《自然》杂志展开合作,分析历史上所有的热门基因(参见下图:“十大‘明星基因’”)。这项工作所揭示的远不止于闲聊谈资:它披露了生物医学领域研究的重要趋势,反映出对特殊疾病或公共卫生问题的关注如何改变基因研究的优先顺序。同时,也揭示了少数基因占据了大量的研究侧重,这些基因大部分涉及跨学科和疾病领域。
十大“明星基因”
Credit:Peter Kerpedjiev/NCBI-NLM
人类基因组包括两万多个能够编码蛋白质的基因,对其中约 100 个基因的研究占据了美国国家医学图书馆标记文章的 1/4。同时,还有数以千计的基因未被研究。“这说明因不愿投入使得我们对某些基因有多么地不了解,” Helen Anne Curry 答道,他是来自英国剑桥大学的科学史学家。
热门与过时
2002 年,第一份人类基因组的草图刚发表不久,美国国家医学图书馆开始系统地在文章上添加“基因引用功能(gene reference into function, Gene RIF)”的标签,并把范围扩大到上世纪 60 年代的文章,有时候还利用别的数据库来补充信息。这并不是一个完美的整合数据。“总而言之,数据集仍然存在一些干扰信息,” Terence Murphy 答道,他是美国国家医学图书馆的一名科学家。他提醒说,2002 年前发表的文章可能存在样本偏倚:意思是某些基因统计过多而另一些则错误地遗失了。“但这并不糟糕,” Murphy 说道。“当你整合多个基因数据时,能够潜在地减少部分偏倚。”
如上所述, PubMed 的记录显示,在一些特定的历史时期,与基因相关的文章倾向于聚焦某些热点问题(参看下表“那些年的‘明星基因’”)。比如,在 80 年代中期之前,许多遗传学研究专注于血红蛋白,这是一种血细胞中运输氧气的分子。在 1985 年之前,超过 10% 的关于人类遗传学的文章在某种程度上都涉及到血红蛋白。
Credit:Peter Kerpedjiev/NCBI-NLM
同时,研究者仍继续为 Linus Pauling 和 Vernon Ingram 的工作添砖加瓦。这两位先驱者领导了一项分子层面的疾病研究——他们在上世纪40、50 年代发现畸形血红蛋白引起镰刀型血细胞综合症的机制。另外,分子生物学家 Max Perutz 因其研究血红蛋白 3D 结构作出的贡献,与 John Kendrew 共同获得了 1962 年的诺贝尔化学奖,并在后续的几十年专注于血红蛋白的形态与其功能的相关性研究。
Alan Schechter 是美国国立卫生研究院的一位内科医生、科学家兼高级历史顾问,据他所述,血红蛋白基因——当时的热度超过很多其他基因——提供了“一条理解甚至可能治愈分子疾病的途径”。
作为一名镰刀型血细胞的研究者,Schechter 称,在 70 年代至 80 年代早期举行的重要遗传学会议和血液疾病会议上,这类基因是讨论重点。但当研究者获得基因测序和基因编辑等新技术后,他们开始把目光投向其它基因和疾病,包括当时似乎主要攻击男同性恋者的“神秘感染疾病”。
在 1983 年研究发现艾滋病是由 HIV 病毒引发之前,临床免疫学家 David Klatzmann 就注意到病人体内存在某种奇怪的模式。现就职于巴黎第六大学的 Klatzmann 回忆道: “我很惊讶地发现病人体内不含 T4 细胞。”这是免疫系统中T细胞的一种亚型。他利用细胞培养实验证明,HIV 病毒选择性地感染和破坏这些细胞。那么,问题来了:这些病毒是怎么进入细胞的呢?
Klatzmann 的推理是,免疫学家们曾经用来定义 T 细胞类型的表面蛋白(后来被称作 CD4),可能被 HIV 病毒作为进入细胞的受体。他说对了。Klatzmann 在 1984 年十二月报告了这项研究成果,同时期的还有分子病毒学家 Robin Weiss 的一篇类似文章,后者与同事一起,在伦敦的癌症研究所得出了类似的结论。
在 3 年内,CD4 成为生物医学领域最火的基因,在 1987 到 1996 年间,它贡献了当时美国国家医学图书馆所有标记文章的 1-2% 。
这份关注度部分基于科学家们解决艾滋病(AIDS)危机的共同努力。例如,在 80 年代后期,多个公司合作设计治疗类型的 CD4 蛋白,这类蛋白能在 HIV 病毒感染健康细胞之前将其清除干净,但在小规模的临床试验中,该技术“反响平平”, Jeffrey Lifson 说。他是位于美国马里兰州的美国国家癌症研究所“艾滋病和癌症病毒”项目的主任。
CD4 变得更为热门的另一个原因与基础免疫学相关。1986 年,研究者意识到表达 CD4 的 T 细胞应该分为两个不同的亚型:一类减少感染细胞的细菌和病毒,另一类则保护细胞免受蠕虫等寄生虫的伤害,因为有些寄生虫能在不入侵细胞的情况下引起疾病。“这是一个激动人心的时刻,因为我们过去懂得太少,”Dan Littman说道,这是一位来自纽约大学医学院的免疫学家。1986 年以前,他曾参与克隆编码 CD4 蛋白的基因并把它插入细菌基因组内,从而制造了大量实验用的蛋白质。
十年后,Littman 与同事共同领导了一个实验小组,并与其他两个小组合作,证明了 HIV 病毒利用异于 CD4 受体的另一个受体进入细胞:这个蛋白受体就是 CCR5。这类受体,以及另一类称为 CXCR4 的共受体,自那以后一直是全球大规模 HIV 研究的焦点,其最终目标是(虽然至今仍未实现):阻止病毒进入细胞。
流星般的光辉
早在 90 年代初,TP53 已经声名在外。但在它成为天王巨星之前,有几年大家聚焦于另一个不那么出名的基因 GRB2。
当时,研究者们开始识别细胞通信所涉及的特定蛋白质间的相互作用。得益于细胞生物学家 Tony Pawson 的开拓性工作,大家认识到一些小的胞内蛋白包含有一类名为 SH2 的结构域,这类蛋白结构域能够与细胞表面被激活的受体结合,从而将信号传递到细胞核内。
1992 年,来自美国康涅狄格州耶鲁大学医学院生物化学专家 Joseph Schlessinger 发现,GRB2 基因(growth factor receptor-bound protein 2,生长因素受体结合蛋白2)编码的蛋白质是个信息中转站。它包括 SH2 结构以及两个能激活与细胞生长和存活相关的蛋白的结构域。“这是个‘分子红娘’,” Schlessinger 认为。
其他研究者迅速填补了这一空白,开启了细胞信号转导的研究领域。虽然许多细胞信号通路的其他结构单元被迅速发现,最终带来对癌症、自身免疫性疾病、糖尿病和心脏疾病的治疗方案,在 90 年代末期,GRB2 基因仍有过连续三年霸占研究最前沿和最受关注基因宝座的历史。
在某种程度上,这是因为“就某种程度而言,因为 GRB2 是第一个被发现的衔接两条不同信号转导通路的物理连接点,它涉及了多个方面的细胞调控过程。”来自美国加利福尼亚州圣地亚哥州立大学的生物化学家 Petervan der Geer 说。
GRB2 是最热门基因队伍中的“怪胎”。它既不是直接的致病基因,也不是药物靶点,这也解释了它的昙花一现。“你能发现,某些基因因为没有临床价值,最终在热门排行榜上只出现了一小段时间就消失了,”在瑞典卡罗琳学院及皮埃尔和巴黎第六大学工作的 TP53 基因资深研究专家 Thierry Soussi 答道。有着持久吸引力的基因通常表现出某些临床治疗潜力,从而吸引投资人的支持。“这就是事实,” Soussi 称。“基因的重要性与它的临床价值大大相关。”
这也能与某些基因的特点联系起来,比如表达水平、人群个体差异和基因自身的结构特点。根据来自美国伊利诺伊州西北大学的系统生物学家 Thomas Stoeger 分析,他只用把上述因素归类加入到算法中,便可预测哪些基因会成为最热门基因。他 11 月曾在德国海德堡的一场研讨会上作该类报告。
Stoeger 认为上述联系存在的原因,很大程度上要归结于他所称的“可发现性”。热门基因只是碰巧处于生物学的热门领域,并在该时期有合适的工具进行研究。“因为某些基因会比其他的更容易研究,” Stoeger 说道。但也带来问题。因为存在大量未被分类或探索的基因,所以,在理解人类健康和疾病领域方面还是存在很大的空白。
Curry 也指出,由政治家、药企和患者代言人导致的“错综复杂的技术、社会和经济因素”,也会对某个基因的“热门程度”产生影响。
天时地利
Stoeger 也追溯了热门基因的特点是如何随着时间改变的。他发现,在八十年代,研究者们比较看重那些有着细胞外蛋白产物的基因,很可能是因为这些蛋白质最容易被分离和研究。直到最近,研究热点才转向那些制造细胞内蛋白的基因。
这个转变与人类基因组图谱的公布同时发生,Stoeger 提到。这一进步使得一大部分新基因能够被研究。
然而,许多已发现的基因并不符合这个趋势,例如,TP53 基因就是活跃在细胞核内的,而它早在 2000 年左右就成为被研究次数最多的基因。如同许多主导生物学研究的基因一样,TP53 起初被发现之后并未得到人们的正确认识,这也解释了为什么 1979 年其蛋白特性被公布后,TP53 花了数十年才成为生物学文献中的焦点。
开始的时候,TP53 一度被误认为是致癌基因:该类基因突变后会推动癌症进程。直到 1989 年,来自贝尔特·福格尔斯泰因实验室的研究生 Suzanne Baker 发现它事实上是肿瘤抑制基因。自此之后,TP53 的功能性研究才真正开始蒸蒸日上。“从那时候开始,相关的论文发表激增,从中可以看出很多人对此确实有着浓厚的兴趣,”Baker说。她现在是美国田纳西州圣裘德儿童研究医院的一名脑部肿瘤研究员。
随着对人类癌症研究的深入,科学家们把目光投向 TNF ——热门人类基因中 TP53 基因的最有力追赶者。根据美国国家医学图书馆的数据,有着超过 5300 篇文章涉及 TNF 基因(参见下图)。它可编码一种蛋白质——肿瘤坏死因子( tumour necrosis factor)—— 1975 年,它因其能杀死肿瘤细胞的能力而得此名。但抗癌能力并不是 TNF 基因的主要功能,治疗型 TNF 蛋白在临床测试中显示出极高的毒性。
Credit:Peter Kerpedjiev/NCBI-NLM
该基因其实是炎症的调节基因;杀死肿瘤的效用倒是次要的。1980 年代中期,这一效用一经发现,研究者便把目光迅速投向抑制 TNF 蛋白功能的抗体。如今,anti-TNF 治疗是炎症性疾病——比如风湿性关节炎的首选治疗方法,并开始在全球范围内带来数百亿美元的年销售额。
“这个例子说明对基因和基因产物的认知如何迅速改变全世界人民的健康。”在美国纽约范斯坦医学研究所工作的脑外科医生和免疫学家 Kevin Tracey 如是说。
TP53 曾被 APOE 基因短暂地盖过风头。上个世纪 70 年代中期,该基因首先被发现能编码血液中清除胆固醇的载体蛋白,因此 APOE 蛋白被“认真考虑”作为预防心脏疾病的降脂治疗方案,来自美国加州大学旧金山分校的 Robert Mahley 讲述道,他是该研究领域的先驱人物,曾在兔子上做了相关实验。
最终,八十年代末,他汀类药物的出现把 APOE 类药物扫进了历史的垃圾桶。但随后,神经科学家 Allen Roses 和同事们发现,APOE 蛋白与阿兹海默病人脑内的黏性斑块的形成密切相关。1993 年,他们展示了这一基因的特殊形式—— APOE4,它和阿兹海默病患病率的增加有关。
由此,科研人员产生了对 APOE 基因更广泛的兴趣。然而,要想成为研究最多的基因之一,仍需要时间。“当时的反响不怎样,” Ann Saunders 回忆道,她是一位神经遗传学家,同时还在位于美国北卡罗纳州的 Zinfandel 制药担任行政主管,并和后来成为她丈夫的 Roses 合作。
淀粉样蛋白假说在当时的阿兹海默病研究者中风靡一时,他们认为,一种名为淀粉样蛋白-β的蛋白片段是导致该疾病的罪魁祸首,很少有研究者会有兴趣找出一个胆固醇转运蛋白与阿兹海默病的关联性。APOE4 与阿兹海默病患病风险的联系最终被证明是“不容置疑的”,Mahley说。到了 2001 年,APOE 的研究热度短暂地超越了 TP53 。随后,APOE 一直在前五之列,至少对人类基因来说。
和其他热门基因一样,APOE 基因因其与一个仍未解决的人类健康大问题密切相关而被广泛研究。加之抗淀粉样蛋白治疗在临床测试中大多失败了,因此研究 APOE 基因变得十分重要。“我讨厌这样说,但不得不说,试验失败促使我进步,” Mahley 说道。今年,他为自己的公司 E-ScapeBio 筹集了 6.3 千万美金的资金,用以发展针对 APOE4 蛋白的靶向药物。同时,这些失败也推动了行业内和科学基金会重新思考阿尔兹海默病的治疗方案。
人类之外
美国国家医学图书馆追溯了几十个物种的基因,包括小鼠,果蝇及其它重要的模式生物,也包括病毒。在所有基因中,过去 50 年内超过 2/3 的前 100 位热门基因是属于人类基因组的。但非人类基因在榜单中也有着一席之地。通常来说,这些基因与人类健康有着明确的联系,如小鼠版本的 TP53 基因,或者 env ——一种病毒基因,其编码的蛋白用于形成病毒包膜,从而进入细胞。
Credit:Peter Kerpedjiev/NCBI-NLM
其它基因对更广泛的基因研究也有着重要意义。果蝇的一个基因(俗称 white 基因)曾是约 3600 篇文章的重点研究对象,这得追溯到 1910 年的某天,生物学家 Thomas Hunt Morgan 在美国哥伦比亚大学工作时,他通过手持放大镜观察到一只果蝇有着不同寻常的白色复眼。因为该基因的产物能引起果蝇身上一个容易观察的改变,所以,white 基因成为被科学家们广泛用作记录和编辑果蝇基因组的标记物。该基因涉及许多基本的发现,例如证明配对染色体之间的不相等交换使得大量的 DNA 可被复制。
长久以来,最火热的非人类基因莫过于小鼠基因组,而这一物种的基因组仍缺乏研究。Rosa26 基因来自一篇于 1991 年出版的实验论文,在该实验中,细胞生物学家 Philippe Soriano 和 Glenn Friedrich 利用病毒,把重组基因随机地导入到小鼠胚胎干细胞中。在细胞株系 ROSA26 中,重组基因有着高表达,并在近乎所有细胞种类中皆是如此。这个发现为创造转基因小鼠工具的出现奠定了基础。“人们开始疯狂地应用这项技术,”在美国纽约市西奈山医学院工作的 Soriano 回忆道。至今为止,被称为 Rosa 26 的基因位点涉及将近 6500 项功能性研究,仅次于 TP53,排在第二。
任何基因,想要比其他基因获得更多的研究机会,都涉及一系列包括生物、社会压力、商业机遇和临床需求的聚焦。但是,一旦它进入了“第一梯队”,就变成了‘保守阶级’,来自英国利兹大学的科学史学家 Gregory Radick 称:“研究某些基因,变成了一种低风险模式,这种情况会一直持续,直到条件发生改变。”
现在的问题在于情况会如何改变。什么样的新发现会把一个新基因送上榜单,将当今的热门基因踢下“宝座”呢?
ⓝ
Nature|doi:10.1038/d41586-017-07291-9
你有研究过文中的这些“爆款”基因吗?在留言中告诉我们吧!
点击“阅读原文”阅读英文原文
精品回顾
(错误矫正基金:如果您在阅读过程中发现文字或命令错误,请留言或加小编微信指出,获取红包或累积奖励。希望大家多监督,反馈。适用于所有原创文章。)